扩容节点-分布式存储

场景说明

在使用分布式存储的场景下,扩容节点。

风险评估

确保扩容的硬件型号和原集群相同。禁止在存储处于非健康状态下进行变更操作。

准备工作

规划变更时间

在正式进行变更操作之前,需要和客户的运维人员沟通好变更窗口期,尽量将变更窗口期设定为可能对业务影响最小的时间段。

状态检查

在正式进行变更操作之前,对云平台和存储进行健康检查,确保当前环境是正常状态。

资源准备

在正式进行变更操作之前,提前准备好相应的服务器硬件资源。提前下载和当前版本相同的ZStack定制ISO,用于安装服务器操作系统。

操作步骤

1)服务器安装操作系统,配置网络

关闭全局设置中,“云主机高可用全局开关”。 使用ZStack定制ISO安装服务器操作系统,操作系统版本应于当前版本一致。 使用系统带有的zs网络配置脚本进行网络配置,确保管理网络,业务网络均可正常通信。 可以参考:https://www.zstack.io/help/product_manuals/user_guide/v4/4.html

分布式存储要求集群内所有节点相互ssh免密,所以新加入的节点需要手动配置免密。(注意:不可使用免密脚本进行免密) 在新的服务器上执行:

ssh-keygen  
sshpass -p root $密码 ssh-copy-id  $新服务器管理IP  -o StrictHostKeyChecking=no
sshpass -p root $密码 ssh-copy-id  $其他服务器管理IP  -o StrictHostKeyChecking=no

在集群内现有物理机上执行:

sshpass -p root $密码 ssh-copy-id  $新服务器管理IP  -o StrictHostKeyChecking=no

备注:在对新服务器配置手动免密时,免密对象需包含新服务器自身管理IP及集群内的其他服务器管理IP;而在集群其他服务器(集群内所有服务器),手动免密时只包含新服务器管理IP即可。

分布式存储要求集群内所有节点配置主机名和解析 在新的服务器上执行:(假设主机名为node-X)

hostnamectl set-hostname node-X

在集群内任意一台物理机执行:

echo "192.168.1.x node-X"  >>  /etc/hosts
scp /etc/hosts  root@x.x.x.x:/etc/hosts

备注:将新节点的主机名解析加入hosts文件中,并拷贝至集群内所有服务器(包括新的服务器)。

2)存储禁止数据恢复

为了确保在变更期间减少由数据重平衡机制带来的IO压力,需要对分布式存储设置“禁止数据恢复”以减少整个过程中的数据重平衡次数。

登录存储平台页面,点击右上角的设置按钮,点击“禁止数据恢复”选项。

禁止数据恢复

页面弹出再次确认界面,点击“禁止”开启禁止数据恢复设置。 进入“禁止数据恢复”的状态后,会显示出如截图的红色闪烁状态。

红色闪烁

3)添加服务器至云平台

登录云平台管理页面,点击“资源中心” – “硬件设施” – “物理机”。 选择“添加物理机”,依次输入物理机名称,所在集群,物理机IP地址,ssh端口,用户名,密码。点击确定添加物理机。此时勾选“停用”,等待物理机的状态变成“已连接”。

4)添加服务器至存储

登录存储管理页面,点击“资源中心” – “节点”, 选择“添加”,输入新服务器的IP。新服务器假如不需要作为存储的管理和监控节点,不用勾选“管理角色”和“监控角色”,仅保持“块存储网关角色”。

添加节点1

由于我们已经手动进行了环境初始化,所以界面上的初始化选择跳过。

添加节点2

配置网络。

添加节点3

在安装服务前,系统会自动检测相应的配置是否通过,当全部标识为绿色时,表示所有服务器通过检测,如果有红色标识则会提示未通过项,需要对未通过的地方进行修改,直到全部通过,才可进行点击“下一步”。

添加节点4

最后再次确认服务器信息是否无误,点击“确认”。

添加节点5

等待存储节点服务自动安装,状态显示为“健康”表示新的服务器添加成功。

5)添加资源到存储池

选择左侧“资源管理”的“拓扑”,切换到“规划”页面,将新的节点拖拽至对应的机架中。 选择左侧“资源管理”的“缓存分区”,点击添加。勾选待添加的缓存盘,根据实际情况设置分区个数,点击添加按钮。

添加缓存分区

选择左侧“资源管理”的“硬盘”,点击添加按钮。 勾选对应的数据盘,点击下一步,打开“缓存开关”,内存读缓存和缓存模式保持和集群的设置一致,再点击下一步,确认信息后点击确定。

添加硬盘

选择左侧“资源管理”的“存储池”,勾选存储池,在操作列表中点击“添加硬盘”。点击服务器,勾选对应的OSD数据盘,点击右下角添加按钮。

添加到存储池

6)存储开启数据恢复

登录存储管理平台,点击右上方的设置按钮,点击“允许数据恢复”,会弹出再次确认的窗口,点击“开启”后,存储池会进行数据恢复,需要等待集群数据状态恢复至100%(为了避免对业务造成影响,推荐选择低速恢复)。确保当前的存储环境已经恢复正常。

存储恢复正常

7)云平台恢复

登录云平台页面,点击“资源中心”中的“硬件设置”,左侧选择“物理机”,选择对应的物理机,在“更多操作”中选择“启用”。等待物理机连接成功。

启用物理机

8)扩容完成

若需要继续变更其他的物理机,则参考操作步骤中1~7的步骤。

若变更已经完成,确认环境正常后打开“云主机高可用全局开关”。变更过程结束。

results matching ""

    No results matching ""